Компенсация движения

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Компенсация движения (англ. Motion Compensation) — один из основных алгоритмов, применяемых при обработке и сжатии видеоданных. Алгоритм использует схожесть соседних кадров в видеопоследовательности и находит векторы движения отдельных частей изображения (обычно - блоков 16×16 и 8×8). Использование компенсации позволяет при сжатии многократно увеличить степень сжатия за счёт удаления избыточности в виде совпадающих частей кадров. Используется не только при сжатии, но и при фильтрации видео, изменении частоты кадров и т. д.

Идея алгоритма

[править | править код]

Решение проблемы сжатия стало первостепенной задачей начиная с самого появления цифрового видео.[источник не указан 1506 дней] Для оценки возьмем видеоряд со следующими параметрами:

  • Размер кадра: 720×576 (стандартный размер для Европейского телевидения (PAL), 414 720 пикселей)
  • Частота кадров: 25 к/сек (так же стандартно для PAL)
  • Цветопредставление: YV12 (YUV 4:2:0) (16 бит на 4 пикселя + 8 бит на каждый = 12 бит на пиксель)

В итоге на запись или передачу одной секунды такого видео без применения сжатия потребуется 14,8 мегабайта без учета звука и служебной информации. Для хранения полуторачасового фильма уже будет нужно 79 920 мегабайт (78 гигабайт).

Практически в любом видео соседние кадры похожи, имеют общие объекты, которые, как правило, смещаются параллельно.[источник не указан 1506 дней] И совершенно естественно желание закодировать видео так, чтобы объекты не кодировались многократно, а просто описывались некоторые их смещения.[нейтральность?]

В данном фрагменте явно видна похожесть соседних кадров, что типично для любого видео
Видно, что изображения межкадровой разности имеют более простую структуру, фон стал одноцветным

Даже в этом примере если взять и запаковать архиватором 0-й кадр и все изображения межкадровой разности, получится заметный[насколько?] выигрыш при сжатии. Но этот выигрыш можно существенно увеличить.

Пример работы алгоритма

[править | править код]

В связи с высокой вычислительной сложностью алгоритмов распознавания образов и недостаточной точности их работы применяют различные методы, позволяющие быстро находить векторы движения (естественно, не без потерь).

1. Загружается текущий кадр.
2. Кадр делится на блоки (например 16×16).

Поделённый на блоки кадр

3. Производится обход блоков (каждый блок в данном случае обрабатывается отдельно).
4. При счете одного блока производится обход некоторой окрестности блока в поиске максимального соответствия изображению блока на предыдущем кадре в пределах этой окрестности.

Наглядная иллюстрация поиска: изображен предыдущий кадр (тот, в котором производится поиск) и три блока нового кадра, который мы хотим приблизить фрагментами предыдущего

5. Таким образом, после завершения поиска мы получаем набор векторов, указывающий «движение» блоков изображения между кадрами. Эти векторы могут быть естественным образом использованы для создания изображения скомпенсированного кадра, который лучше приближает кадр, для которого производилась компенсация движения.

Здесь показан скомпенсированный кадр с векторами движения для каждого блока (точка — это нулевой вектор)
Как видно, разность между скомпенсированным кадром и текущим значительно меньше, чем между нескомпенсированными кадрами

Проблемы реализации

[править | править код]

При написании алгоритма может возникнуть вопрос - «Как оценивать „похожесть“ фрагментов изображения?». Некоторые из вариантов:

  • Вычисление SSD (суммы квадратичных отклонений). Для пары блоков дает хорошие результаты по качеству (особенно при эталонных тестах, так как метрика PSNR (вычисляется на основе среднего квадратичного отклонения) наиболее распространена), но требует значительных затрат ресурсов (умножение - операция медленная, даже таблица квадратов не очень ускоряет процесс) и сильно чувствителен к изменению яркости.[источник не указан 1506 дней] Чем меньше SSD — тем больше похожи блоки.
  • Сравнение по характерным точкам. Может выполняться очень быстро (за счет обхода лишь небольшого числа точек), но может очень плохо коррелировать с более качественными метриками.
  • Вычисление SAD (суммы абсолютных разностей). Выполняется за разумное время и дает приемлемый результат по качеству (но имеет низкую устойчивость к шуму). Реально применяется и имеет хорошие скоростные показатели за счет использования SIMD-расширений (которые позволяют выполнять множество вычитаний одновременно без использования «интеллектуальных» средств процессора по распараллеливанию вычислений).[источник не указан 1506 дней]

Наиболее часто используется вычисление SAD.[источник не указан 1506 дней] Следующий вопрос: «Как искать нужный блок?»

  • Полный перебор (Full Search). В некоторой области вокруг обрабатываемого блока происходит перебор координат искомого блока. Если имеем блок 16×16 и область поиска ±32 × ±32, то нам нужно будет 4096 раз посчитать SAD для каждого обрабатываемого блока. Это медленно, но дает гарантированно лучший результат по заданной метрике.[источник не указан 1506 дней]
  • Поиск по шаблону. Выполняется быстро, дает не лучшие результаты.
  • Спиральный поиск. Считается,[кем?] что чем ближе блок к текущему, тем больше вероятность того, что он искомый. И его точность уменьшается от центра к краям области поиска. Имеет дополнительное преимущество. На картинке (в этой статье) с векторами движения видны длинные векторы на небе, так как использовался полный перебор начиная с левого верхнего угла области поиска, хотя очевидно, что с нулевыми векторами нет практически никакой разницы, но длинные векторы ухудшают сжимаемость поля векторов, а нулевые векторы - нет. При спиральном поиске на неизменных участках всегда стоят нулевые векторы.

Пример реализации

[править | править код]

Реализация метода полного перебора на C++

void ME( BYTE* CurrentFrame, BYTE* PreviousFrame, int Width, int Height, MV* MotionVectors )
{
	int BlocksPerHeight = (Height + 15) >> 4; //Число блоков по вертикали
	int BlocksPerWidth  = (Width  + 15) >> 4; //Число блоков по горизонтали

	int VerticalOffset, HorizontalOffset, TempOffset;  //Смещения
	int OffsetPerLine = Width + Border * 2;            //Смещение на одну строку
	int StartOffset = OffsetPerLine * Border + Border; //Начальное смещение
	BYTE *CurrPtr, *PrevPtr; //Указатели на предыдущий и на следующий кадры
	
	MV ProbMV;            //Пробный вектор
	long MinError, Error; //Значения погрешности

	for (int i = 0; i < BlocksPerHeight; i++)
	{
		for (int j = 0; j < BlocksPerWidth; j++)
		{
			//Вычисляем смещения
			VerticalOffset = (i << 4) * OffsetPerLine + StartOffset;
			HorizontalOffset = (j << 4);
			//Устанавливаем смещения на текущий блок
			CurrPtr = CurrentFrame  + VerticalOffset + HorizontalOffset;
			PrevPtr = PreviousFrame + VerticalOffset + HorizontalOffset;
			MinError = MAXLONG; //Считаем ошибку очень большой

			for (int y = -MaxMotion; y < MaxMotion; y++ )
			{
				TempOffset = y * OffsetPerLine; //Экономим на умножениях
				for (int x = -MaxMotion; x < MaxMotion; x++ )
				{
					//GetError - функция сравнения блоков, например, SAD
					Error = GetError (CurrPtr, PrevPtr + TempOffset + x, OffsetPerLine);
					//Новый кандидат :)
					if (Error < MinError)
					{
						ProbMV.x = x;
						ProbMV.y = y;
						MinError = Error;
					}
				}
			}
			//Записываем полученный вектор :)
			MotionVectors [i * BlocksPerWidth + j] = ProbMV;
		}
	}
}

В новом[когда?] стандарте MPEG-4 AVC/H.264 введены также неквадратные (прямоугольные) блоки, размер которых может дробиться до 4×4 пикселя. Таким образом удаётся весьма эффективно использовать похожесть соседних кадров, а благодаря более сложной форме блоков возрастает точность компенсации движения на границах движущихся объектов. Кроме компенсации движения, для дальнейшего уточнения изображения (или для вновь появляющихся областей, которых не было в прошлых кадрах) используется сжатие межкадровой информации и независимое сжатие блоков.[источник не указан 1506 дней]

Помимо сжатия, компенсация движения активно используется[кем?] в фильтрации видео, в частности, в качественных вариантах фильтров: деинтерлейсинга (преобразования чересстрочной развёртки в прогрессивную), шумоподавления, изменения частоты кадров и других.

  • Temporal Rate Conversion (англ.) — Статья о компенсации движения на сайте Microsoft.